自动求导¶

Note

求导是几乎所有深度学习优化算法的关键步骤，我们可以使用PyTorch自动求导。

一个简单的例子¶

假设我们想对函数 \(y = 2\mathbf{x}^{T}\mathbf{x}\) 关于列向量 \(\mathbf{x}\) 求导。

在pytorch中，tensor有一个requires_grad属性，默认为False，如果设置为True，那么反向传播时该tensor就会自动求导。

import torch

# 元素类型需为float
x = torch.arange(4.0, requires_grad=True)
x

tensor([0., 1., 2., 3.], requires_grad=True)

# y依赖于x，从而它的requires_grad同样为True
y = 2 * torch.dot(x, x)
y.requires_grad

True

# 自动求导
y.backward()
x.grad

tensor([ 0.,  4.,  8., 12.])

Warning

需要注意的是，梯度是会累加的！
所以我们一般会在每次backward前把梯度清0

# 梯度会累加
z = 3 * torch.dot(x, x)
z.backward()
x.grad

tensor([ 0., 10., 20., 30.])

# 梯度清0
x.grad.zero_()
x.grad

tensor([0., 0., 0., 0.])

被torch.no_grad()包住的运算不会被计算梯度。

这在推断时很有用，可以节省内存。

a = torch.tensor([1.], requires_grad=True)

with torch.no_grad():
    b = a * 2

b.requires_grad

False